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摘 要 


个 体 决策 后 的 反馈 对 随后 的 结果 监控 和 行为 调整 起 着 至 关 重 要 的 作用 。 事 件 相 关 脑 电位 研究 发 现 ， 


反馈 负 波 (feedback-related negativity, FRN) 是 与 决策 后 反馈 加 工 过 程 紧密 相关 的 脑 电 成 分 , 近 10 年 来 关于 FRN 
的 理论 解释 ， 在 最 初 经 典 的 强化 学 习 理 论 和 情绪 动机 假说 的 基础 上 又 提出 了 反应 -结果 的 预测 模型 、 奖 赏 正 波 
理论 以 及 积极 情绪 启动 模型 。 未 来 的 研究 应 该 立足 于 大 样本 ， 采 用 互补 的 研究 手段 和 多 样 的 分 析 技术 来 探讨 
FRN 的 心理 意义 ; 同时 考虑 将 FRN 作为 奖赏 加 工 的 脑 电 指标 ， 研 究 社会 互动 情境 下 的 人 类 行为 。 


关键 词 RRR, 强化 学 习 ; 
分 类 号 B845 


1 反馈 负 波 简介 


决策 后 的 反馈 是 指 个 体 做 出 决策 行为 之 后 所 
认识 到 的 事件 或 行为 结果 ， 它 不 仅 能 够 帮助 个 体 
对 行为 结果 进行 评估 和 监察 ,也 能 促进 个 体 调 整 
和 修正 下 一 步行 为 (Luft，2014)。 研 究 者 利用 事件 
相关 电位 技术 (event related potentials, ERPs), ic 
录 决 策 后 呈现 反馈 结果 时 大 脑 皮 层 的 脑 电 活动 ， 
发 现 FRN 这 一 脑 电 成 分 与 反馈 刺激 的 加 工 过 程 紧 
密 相 关 。 其 中 FRN 指 的 是 , 在 负 性 反馈 刺激 呈现 
后 的 200~350 ms 的 时 间 窗 口 出 现 的 一 个 相对 负 
向 偏转 的 脑 电波 成 分 (Miltner，Braun，& Coles, 
1997; 李鹏 ， 李 红 ，2008)， 它 反映 的 是 一 种 强化 
学 习 信 和 号， 这 种 信号 在 大 脑 中 的 传递 能 够 帮助 行 
动 者 进行 认 知 上 的 学 习 和 行为 决策 上 的 调整 
(Schonberg, Daw, Joel, & O’Doherty, 2007)。 

反馈 加 工 过 程 是 一 个 复杂 的 认 知 过 程 ， 而 个 
体 对 反馈 的 学 习 容 易 受 到 多 方面 因素 的 影响 ， 
此 需要 不 断 探索 和 尝试 新 的 技术 和 方法 进行 研究 
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和 解释。 当前 研究 中 关于 FRN 的 分 析 方 式 主要 有 
两 种 : 一 种 是 原始 波形 的 分 析 ， 即 计算 不 同类 型 
的 反馈 刺激 所 诱发 的 脑 电 波 受 加 之 后 的 平均 波幅 
(Sambrook & Goslin, 2015); 另 一 种 是 差异 波 的 分 
析 ， 即 计算 和 分 析 正 性 反馈 和 负 性 反馈 之 间 的 差 
F, 得 到 与 奖赏 加 工 相 关 的 特异 性 FRN 成 分 
(Holroyd & Krigolson, 2007; Bress & Hajcak, 2013)。 
近年 来 也 有 一 些 研 究 者 通过 新 的 方法 ， 比 如 在 脑 
电 原始 波 的 基础 上 利用 主 成 分 分 析 和 独立 成 分 分 
析 法 排除 其 他 成 分 对 FRN 的 干扰 ,得 到 更 精确 和 
稳定 的 FRN 成 分 ,Marco-Pallares, Cucurell, Münte, 
Strien 和 Rodriguez-Fornells (2011) 对 于 获得 有 效 
的 FRN 成 分 所 需 最 少 的 释 加 次 数 进行 了 探讨 ,， 结 
果 发 现在 正常 人 群 中 ,健康 青年 被 试 至 少 需要 20 
个 试 次 , 而 健康 老年 被 试 至 少 需要 50 个 试 次 ; 其 
UR, 稳定 和 有 效 的 反馈 负 波 获得 主要 取决 于 信号 
记录 过 程 中 的 信 噪 比 以 及 样本 特征 ， 例 如 对 于 认 
知 受 损 或 者 临床 疾病 的 人 群 来 说 ， 由 于 自身 认 知 
功能 的 下 降 等 因素 导致 实验 的 信 噪 比较 低 ， 可 能 
需要 更 多 的 试 次 数量 。 

另外 , 关于 FRN 的 发 生源 , 不同 的 学 者 采用 
了 不 同 的 技术 进行 研究 。 大 部 分 研究 通过 传统 的 
偶 极 子 漳 源 定 位 技术 发 现 FRN 可 能 产生 于 前 扣 带 
回 皮层 区 域 (anterior cingulate cortex, ACC)。 前 扣 
带 回 皮层 位 于 前 额 叶 区 域 ,与 行为 决策 和 认 知 控 
制 有 关 , 因此 这 与 FRN 的 理论 解释 相符 合 ， 即 FRN 
成 分 反映 了 个 体 对 于 结果 评价 的 学 习 和 决策 过 程 
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(Holroyd & Coles, 2002; Nieuwenhuis, Holroyd, 
Mol, & Coles, 2004; Holroyd & Yeung, 2012). 然而 ， 
也 有 研究 者 提出 了 一 些 相 反 证 据 。 例 如 ，Foti， 
Weinberg, Dien 和 Hajack (2011) 采用 主 成 分 分 析 
法 (principle components analysis, PCA), 提出 FRN 
的 发 生源 可 能 在 于 纹 状 体 的 壳 核 部 分 ; 除 此 之 
外 一 些 学 者 利用 功能 性 磁 共 振 成 像 与 ERP 技术 
相 结 合 的 方式 , 采用 独立 成 分 分 析 法 (independent 
components analysis, ICA), 证实 了 FRN 还 与 大 脑 
的 多 巴 胺 奖赏 回路 有 关 : 可 能 也 存在 背 侧 和 腹 侧 
纹 状 体 的 激活 (Becker, Nitsch, Miltner, & Straube, 
2014)。 综 上 可 见 , 受制 于 ERP 技术 本 身 空间 定位 
不 精确 这 一 缺陷 FRN 的 溯源 定位 仅 供 参考 ， 相 
比 而 言 ， FRN 前 中 部 的 头皮 分 布 是 一 个 来 识别 
FRN 成 分 的 更 加 稳定 的 特质 。 


2 反馈 负 波 的 理论 发 展 历程 


从 Miltner 等 人 (1997) 首 次 报告 FRN 这 一 朋 
成 分 以 来 ， 早 期 关于 FRN 的 理论 解释 主要 有 两 种 
竞争 性 理论 : 强化 学 习 理 论 和 情绪 动机 假说 。 前 
EUN, FRN 反映 了 对 于 奖赏 预期 错误 的 认 知 加 
工 过 程 ; 后 者 则 认为 其 反映 了 反馈 刺激 所 带 来 的 
情绪 、 动 机 意义 的 评价 过 程 (李鹏 ， 李 红 ，2008)。 
在 最 近 10 年 左右 的 研究 中 ,关于 FRN 的 理论 解 
释 又 有 了 新 发 展 和 进步 。 本 文 将 在 2008 年 李鹏 和 
李 红 《 反 馈 负 波及 其 理论 解释 》 这 一 综述 的 基础 
E, 简 述 强化 学 习 理 论 和 情绪 动机 假说 两 种 早期 
理论 的 最 新 发 展 ,并 重点 介绍 近 几 年 关于 反馈 负 
波 的 一 些 最 新 的 理论 模型 的 发 展 ， 并 提出 一 些 新 
的 研究 方向 。 

2.1 经 典 的 强化 学 习 理 论 

强化 学 习 理 论 认 为 ， 人 们 通过 不 断 的 学 习 来 
调整 行为 ， 从 而 选择 最 优化 的 决策 。 最 初 Holroyd 
和 Coles (2002) 采 用 概率 奖赏 学 习 任 务 ， 即 给 被 试 
呈现 多 个 选项 ， 每 个 选项 背后 代表 的 奖赏 或 者 惩 
罚 的 概率 不 同 ， 被 试 根 据 按 键 选 择 后 呈现 的 反馈 
结果 学 习 刺 激 和 反应 之 间 的 联结 ， 从 而 调整 自己 
的 行为 以 期 获得 更 多 的 奖赏 。 他 们 通过 分 析 在 概 
率 学 习 任 务 中 反馈 刺激 呈现 后 被 试 的 脑 电 变化 ， 
发 现在 长 时 间 的 反馈 学 习 过 程 中 ， 正 性 反馈 ( 即 金 
钱 奖赏 ) 和 人 负 性 反馈 ( 即 金钱 损失 ) 所 诱发 的 脑 电 波 
差异 主要 来 自 于 负 性 反馈 : 相 较 于 正 性 反馈 来 
说 ， 负 性 反馈 会 诱发 一 个 更 加 负 向 偏转 的 脑 电波 


Er 
fe 


(Bellebaum & Daum, 2008)。 因 此 ,首先 该 理论 认 
为 在 反馈 过 程 中 人 们 会 在 行为 -结果 之 间 形 成 一 
个 稳定 的 预测 ， 即 类 似 于 刺激 -反应 之 间 的 联结 
信号 , 也 称 作 强 化 学 习 信 和 号。 根据 这 一 信号 的 传 
递 和 监控 ,行动 者 不 断 调整 自身 的 行为 选择 ， 从 
而 习 得 最 优化 行为 (Padron，Fernindez-Rey，Acugia， 
& Pardo- Vazquez, 2016)。 其 次 , 该 理论 提出 FRN 
这 一 成 分 是 对 于 奖赏 预测 误差 的 一 种 表征 ， 即 预 
期 奖赏 与 实际 奖赏 的 差异 (reward prediction error, 
RPE) 的 表征 。 上 具体 来 说 ， 当 呈现 正 性 反馈 结果 即 
实际 奖赏 大 于 预期 奖赏 时 ， 会 诱发 一 个 正 性 的 奖 
赏 预测 误差 (positive reward prediction error, +RPE) 
信号 , 个 体 根据 这 一 反馈 维持 或 者 增加 自身 的 行 
为 表现 ; 但 是 当 旦 现 负 性 结果 即 实 际 奖 赏 小 于 预 
期 奖赏 的 情况 时 , 会 诱发 一 个 负 性 的 奖赏 预测 误差 
(negative reward prediction error, 一 RPE) 信 号 , 个 体 
根据 这 一 反馈 调整 或 者 减少 自身 的 行为 表现 。 有 
研究 表明 负 性 反馈 相 较 于 正 性 反馈 会 诱发 一 个 更 
加 负 性 的 奖赏 预测 误差 信号 , 个 体 根据 这 一 信号 
的 传递 做 出 目标 指向 性 行为 ,从 而 实现 利益 最 大 
化 。 这 一 神经 信号 的 加 工 过 程 主要 是 -RPE 信号 会 
导致 中 脑 多 巴 胺 神经 元 活动 的 相位 下 降 ， 继 而 引 
发 ACC 神经 元 的 去 抑制 活动 增强 ， 从 而 产生 较 大 
波幅 的 FRN (Holroyd & Coles, 2002; Maia & Frank, 
2011). 

虽然 该 理论 在 一 定 程度 上 能 够 很 好 地 解释 早 
期 反馈 结果 好 坏 维度 上 的 二 元 评价 ( 即 比 预期 结 
果 好 , 或 者 比 预期 坏 ), 但 是 在 近 几 年 的 研究 中 该 
理论 也 受到 了 一 些 挑战 。 首 先 , 该 理论 通过 侦 极 
子 渊源 定位 分 析 ， 认 为 FRN 可 能 产生 于 ACC。 然 
而 ， 有 研究 采用 简单 赌博 任务 范式 ， 即 通过 给 被 
试 呈 现 两 个 选项 ， 例 如 两 个 关 着 的 门 ， 被 试 需要 
选择 打开 其 中 的 一 扇 门 ,被 试 做 出 决策 后 程序 随 
机 呈现 反馈 结果 ( 赢 或 者 输 )， 在 反馈 呈现 阶段 观 
察 被 试 的 脑 电 变化 以 及 大 脑 激 活水 平 的 变化 , 通 
过 ERP 和 fMRI 技术 的 结合 发 现 FRN 也 可 能 源 于 
FF (Ml AU ME Ml BCR AK (Carlson, Foti, Mujica-Parodi, 
Harmon-Jones, & Hajcak, 2011)， 而 这 两 个 区 域 主 
要 与 金钱 奖赏 加 工 功 能 有 关 。 第 二 , 该 理论 认为 ， 
错误 相关 负 波 ‘(error related negativity，ERN) 和 


' ERN 主要 出 现在 错误 反应 呈现 后 的 80 ms, 是 一 种 刺激 锁定 
的 ERP 成 分 , 是 一 个 对 于 早期 的 反应 错误 的 自动 化 觉察 过 程 。 
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FRN 反映 的 是 一 种 类 似 的 强化 学 习 信 号 , 但 是 很 
多 研究 都 表明 这 两 个 脑 电波 成 分 表现 出 了 实验 性 
TA, 二 者 反映 了 不 同 的 认 知 阶段 (Schulreich, 
2016), 其 中 Gehring, Goss, Coles, Meyer 和 Donchin 
(1993) 早 期 通过 简单 的 按键 反应 任务 (被 试 进行 按 
键 时 就 已 经 知道 反应 结果 的 正确 与 错误 )， 发 现 了 
ERN 这 一 脑 电 成 分 。 随 后 研究 者 通过 建立 刺激 - 
反应 之 间 的 联结 过 程 进一步 分 离 个 体 的 按键 决策 
反应 过 程 和 随后 的 反馈 结果 呈现 过 程 ， 结 果 发 
现 : 在 负 性 反馈 呈现 之 后 , 个 体 的 脑 电波 出 现 了 
一 个 负 性 的 偏转 。 所 以 ， 大 多 数 研究 认为 ERN 反 
映 了 早期 的 错误 检测 的 认 知 过 程 ， 而 FRN 则 反映 了 
后 期 的 反馈 加 工 的 认 知 学 习 过 程 (Schulreich, 2016)。 
B=, 该 理论 认为 负 性 的 奖赏 预测 误差 会 诱发 较 
大 波幅 的 FRN, 但 是 有 研究 者 采用 反 转 学 习 任 务 ， 
即 通 过 在 简单 的 赌博 任务 中 不 断 改变 刺激 -结果 
之 间 的 关系 , 让 被 试 在 观察 他 人 做 出 决策 行为 时 
报告 自己 的 结果 预期 , 通过 预期 与 反馈 结果 的 对 
E, 分 离 预 期 因素 和 效 价 因素 , 发 现 FRN 仅 对 结 


Bulten, Cools, & de Brujin, 2013)。 
2.2 ”情绪 动机 假说 

情绪 动机 假说 最 早 由 Gehring 和 Willoughby 
(2002) 提 出 。 他 们 的 研究 操纵 了 金钱 得 失 和 行为 正 
误 两 个 变量 , 发现 FRN 只 对 金钱 得 失 敏感 ， 同 时 
还 发 现 FRN 济源 定位 于 与 情绪 加 工 有 关 的 ACC 
的 前 部 ， 从 而 认为 FRN 表征 的 是 反馈 刺激 带 来 的 
情绪 动机 意义 。 该 理论 假说 的 提出 挑战 了 强化 学 
习 理 论 的 观点 (Gehring & Willoughby, 2002)。 随 后 ， 
FRN 领域 早期 的 大 量 研究 探讨 了 这 两 种 理论 的 争 
论 (例如 : Gehring & Willoughby, 2002; Nieuwenhuis 
et al., 2004; 李鹏 ， 李 红 , 2008). JE 10 年 来 经 典 强 
化 学 习 理论 有 了 新 的 发 展 ， 然 而 对 于 情绪 动机 假 
说 的 讨论 减少 ,讨论 二 者 合理 性 的 文献 也 越 来 越 
少 。 究 其 原因 ， 可 能 是 研究 者 越 来 越 意识 到 两 者 
未 必 相 互 排斥 : 情绪 动机 假说 不 能 脱离 认 知 过 程 
谈 更 高 级 的 情绪 (Yeung，2004)， 而 强化 学 习 理 论 
只 强调 奖赏 预期 错误 加 工 的 认 知 过 程 ， 也 无 法 摆 
脱 情绪 动机 对 该 认 知 过 程 自 上 而 下 的 影响 (Walsh 
& Anderson, 2012; Bismark, Hajack, Whitworth, & 
Allen，2013)。 此 外 ,研究 者 还 发 现 即 使 是 相同 的 
强化 学 习 过 程 在 特定 的 社会 交互 情境 中 也 会 诱发 
不 同 大 小 的 FRN 成 分 (Li et al., 2010; Chen, Wu, 


果 效 价 敏感 ， 而 与 预期 因素 无 关 (Von Borries, Verkes, 


Tong, Guan, & Zhou, 2012; Ma et al., 2011; Hu, Xu, 
& Mai, 2017)， 说 明 动 机 因素 调节 了 反馈 加 工 过 程 。 
实际 上 ， 早 期 强化 学 习 理 论 的 提出 者 Holroyd 
近年 来 更 新 了 自己 的 理论 , 提出 了 多 层次 的 强化 
学 习 模 型 (Holroyd & Yeung, 2012)。 在 该 理论 中 ， 
Holroyd 等 人 提出 FRN (又 被 称 为 Reward Positivity) 
反映 的 不 是 前 扣 带 回 皮层 监控 个 体 执行 每 一 个 具 
体 动作 的 功能 ， 而 是 在 不 同 的 任务 中 做 选择 并 且 
保持 努力 直到 完成 某 个 任务 的 功能 (Holroyd & 
Umemoto，2016)。 这 个 观点 实际 上 与 早期 的 情绪 
动机 假说 部 分 吻合 。 
2.3 ”反应 -结果 的 预测 模型 (Predicted response- 
outcome model, PRO model) 
早期 经 典 的 强化 学 习 理 论 认 为 ,表示 行为 错 
误 或 者 失去 奖赏 的 负 性 反馈 刺激 会 诱发 一 个 较 大 
负 向 偏转 的 FRN。 然 而 ,Oliveira,McDonald 和 
Goodman (2007) 通 过 在 时 间 佑 计 任 务 中 让 被 试 在 
估计 一 秒 钟 的 时 间 后 ,接着 报告 自身 的 结果 预 共 
(预期 自己 反应 正确 或 者 错误 )， 随 后 呈现 反馈 结 
果 来 分 离 预 期 因素 和 效 价 因 素 的 影响 发现 预 共 
之 外 的 反馈 相 较 于 预期 之 中 会 产生 较 大 波幅 的 
FRN, 这 一 结果 和 早期 经 典 的 强化 学 习 理 论 的 观点 
不 符 。 Alexander 和 Brown (2011) 针 对 FRN 的 效 价 
独立 性 提出 了 反应 -结果 的 预测 模型 。 该 模型 认为 
FRN 对 结果 反馈 预期 敏感 ， 主 要 编码 突显 的 预测 
误差 .而 不 是 RPE (Talmi, Atkinson, & El-Deredy, 
2013; Kobza, Thoma, Daum, & Bellebaum, 2011). 
由 于 以 往 的 研究 中 主要 关注 奖赏 条 件 下 的 反馈 ， 
因此 Talmi 等 (2013) 研 究 者 加 入 了 厌恶 刺激 设计 。 
他 们 设置 了 两 种 条 件 : 奖赏 条 件 和 厌恶 条 件 ， 并 
通过 操作 奖赏 条 件 下 获得 奖赏 的 概率 (25%，75%0) 
以 及 惩罚 条 件 下 无 电击 的 概率 (25%，75%) 来 定义 
预期 因素 ( 低 概率 事件 发 生 的 结果 对 被 试 来 说 是 
一 个 预期 之 外 的 反馈 : 例如 25% 的 奖赏 , 25% 的 无 
电击 ) 以 及 反馈 效 价 因素 (奖赏 还 是 电击 ), 被 试 需 
要 根据 每 个 试 次 的 概率 线索 做 出 选择 。 结 果 发 现 
预期 之 外 的 “无 奖赏 ”( 负 性 结果 )， 以 及 预期 之 外 
的 “无 电击 ”( 正 性 结果 ) 都 会 诱发 一 个 较 大 波幅 的 
FRN。 因 此 ， 该 模型 提出 产生 于 前 扣 带 回 皮层 的 
FRN 编码 类 似 于 绝对 的 奖赏 预测 误差 信号 (absolute 
reward predicted errors) :不管 反馈 的 结果 效 价 如 何 ， 
只 要 反馈 结果 和 被 试 的 预期 不 符合 都 会 诱发 一 个 
较 大 的 FRN 波幅 (Ferdinand, Mecklinger, Kray, & 
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Gehring，2012)。 该 研究 也 存在 一 定 的 不 足 ， 比 如 
说 两 种 条 件 下 的 动机 差异 : 奖赏 条 件 下 获得 奖赏 
的 次 级 强化 物 和 厌恶 条 件 下 保护 自己 的 初级 强化 
物 。 由 于 动机 的 不 一 致 , 直接 对 比 两 种 条 件 下 的 差 
异 可 能 存在 问题 。 
但 是 ， 该 模型 也 存在 一 些 争 议 。Sambrook 和 
Goslin (2015) 通 过 元 分 析 发 现 , FRN 可 能 受 反馈 效 
价 以 及 奖赏 数量 的 影响 ,而 预期 这 一 因素 仅 反 映 
在 后 期 的 P300 成 分 上 。 该 研究 团队 通过 主 成 分 分 
析 的 方法 ， 除 了 提取 出 编码 +RPE 的 FRN 成 分 之 
Sh, 还 提取 出 了 许多 编码 突显 信息 的 成 分 , 但 是 
没有 提取 出 编码 -RPE 的 成 分 (Sambrook & Goslin, 
2016)。 此 外 , 由 于 P300 成 分 和 FRN 成 分 在 时 间 
窗口 上 存在 一 定 的 重 玻 ,导致 某 些 研究 在 一 定 程 
度 上 混合 了 两 个 成 分 , 而 P300 也 被 认为 和 预期 因 
素 有 紧密 关系 (Nieuwenhuis, Aston-Jones, & Cohen, 
2005; Zheng, Li, Wang, Wu, & Liu, 2015; Balconi, 
Finocchiaro, & Canavesio, 2015)， 因 此 ， 该 理论 的 
合理 性 还 需要 进一步 研究 。 
2.4 ”奖赏 正 波 (Reward positivity, RewP) 
根据 近 几 年 来 对 FRN 差异 波 的 分 析 , 人 研究 者 
发 现 正 性 反馈 条 件 下 的 FRN 变化 较 大 , 而 负 性 反 
馈 的 差异 波 变 化 较 小 或 者 基本 不 变化 ,因此 FRN 
可 能 对 于 正 性 结果 更 加 敏感 (Walsh & Anderson, 
2012)。 实际 上 , Holroyd 等 人 早 在 2008 年 就 提出 了 
“奖赏 正 波 ”这 一 概念 ， 这 是 对 经 典 的 强化 学 习 理 
论 的 补充 和 修正 。 他 们 认为 在 时 间 估 计 任 务 和 简单 
赌博 任务 中 , 正 性 和 负 性 反馈 刺激 呈现 后 的 250 ms 
左右 都 会 诱发 一 个 相对 正 走 向 的 差异 波 即 RewP， 
而 且 预 期 之 外 的 正 负 反馈 之 间 的 差异 值 变 化 大 于 
Hi HZ N (Holroyd, Pakzad-Vaezi, & Krigolson, 
2008)。 此 外 ,该 理论 认为 FRN 是 反馈 效 价 和 反馈 
预期 相互 作用 的 产物 , 它 代 表 了 一 种 存在 正人 负 2 
分 的 奖赏 预测 误差 (signed reward prediction errors, 
sRPEs)， 这 和 经 典 的 强化 学 习 理 论 相 一 致 。 后 来 
该 团队 针对 PRO 模型 提出 的 反馈 负 波 编码 突显 的 
预测 误差 信号 进行 研究 。 他 们 采用 虚拟 的 T 迷宫 
实验 ( 即 在 迷宫 的 每 一 条 路 的 拐角 处 ,都 有 相应 的 
两 个 选项 ,被 试 需要 作出 决策 ， 随 后 出 现 反馈 结 
果 )， 设 置 了 两 种 条 件 (奖赏 以 及 惩罚 )， 从 而 产生 
了 4 种 反馈 结果 ,金钱 奖赏 /无 奖赏 ,电击 惩罚 /无 
有 击 ; 其 中 对 于 被 试 来 说 ,金钱 奖赏 和 无 电击 结 
果 是 正 性 反馈 ,无 奖赏 和 电击 是 负 性 反馈 。 研 究 


发 现在 奖赏 条 件 下 反馈 刺激 诱发 了 奖赏 正 波 ， 而 
在 惩罚 条 件 下 诱发 了 一 个 延迟 的 奖赏 正 波 (Heydari 
& Holroyd, 2016), 并 且 在 惩罚 条 件 下 , 无 电击 相 
较 于 电击 的 波幅 更 正 ， 因 此 他 们 认为 RewP 反映 
的 不 是 一 种 突显 的 预测 误差 .而 是 一 种 奖赏 预测 
误差 。 

一 系列 的 研究 表明 这 一 现象 的 出 现 可 能 是 由 
于 预期 之 外 的 事件 诱发 了 一 个 对 新 异 刺 激 敏 感 的 
N200 成 分 , 该 成 分 主要 和 实验 任务 特征 相关 (Angus， 
Kemkes, Schutter, & Harmon-Jones,2015), 依赖 于 
实验 背景 的 操作 (Baker & Holroyd, 2011; Shahnazian 
& Holroyd, 2017)， 反 映 了 刺激 的 新 颖 性 。 它 反映 
在 大 脑 活动 上 主要 是 正 性 反馈 诱发 的 多 巴 胺 活动 
的 阶段 性 增加 抵消 了 N200 的 活动 从 而 产生 了 一 
个 正 偏 向 的 RewP, (Hewig et al., 2010); 而 负 性 反 
馈 诱发 的 多 巴 胺 活动 阶段 性 下 降 则 不 能 抵消 N200 
的 波幅 ， 最 终 导 致 负 反 馈 相 较 正 反馈 诱发 了 较 大 
的 FRN 原始 波 (Holroyd, Krigolson, & Lee, 2011). 
因此 , 潜在 的 RewP 成 分 不 能 在 脑 电 原始 波 上 直 
接 观 察 , 但 是 通过 差异 波 减 去 N200 成 分 或 者 通 
过 PCA 处 理 后 可 以 观察 并 分 析 这 一 成 分 (Foti et 
al., 2011)。 
2.5 ”积极 情绪 启动 模型 (Positive affective system) 

近 几 年 的 一 些 研究 数据 ,除了 支持 效 价 独立 
性 的 强化 学 习 模 型 之 外 ， 也 有 数据 表明 在 奖赏 背 
景 下 或 者 奖赏 概率 较 高 的 条 件 下 FRN 会 出 现 一 个 
相对 正 走向 的 偏转 波 (San Martin, Manes, Hurtado, 
Isla, & Ibañez, 2010)。 因 此 ， 有 研究 者 采用 概率 奖 
赏 任务 范式 分 析 先 前 试 次 的 反馈 结果 对 于 当前 反 
馈 结 果 的 脑 电 活动 影响 时 发 现 : 在 随机 呈现 反馈 结 
果 的 情况 下 ， 前 一 次 结果 是 赢 相 较 于 前 一 次 是 输 
WARE, 本 试 次 中 正 反馈 诱发 的 FRN 波幅 更 正 ， 而 
当前 试 次 中 负 反 馈 诱 发 的 波幅 差异 不 显著 (Mushtaq， 
Stoet, Bland, & Schaefer, 2013)。 因 此 ，Mushtadq， 
Wilkie, Mon-Williams 和 Schaefer (2016) 学 者 提出 
了 积极 情绪 启动 模型 。 该 模型 认为 , FRN 可 能 对 
于 积极 背景 因素 敏感 。 例 如 前 一 试 次 中 FRN 的 奖 
赏 背 景 可 能 提前 启动 了 一 个 积极 情绪 从 而 导致 当 
前 试 次 的 FRN 波幅 呈现 一 个 相对 正 向 的 偏转 , 但 


> PCA 是 一 种 数据 驱动 下 的 分 析 技术 ， 主 要 用 于 提取 事件 
的 主要 成 分 , 剔除 事件 中 的 其 它 重 炙 成 分 ,是 一 种 降 维 的 
方法 。 
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是 负 性 情绪 条 件 下 差异 不 显著 ， 因 此 这 也 可 能 作 
为 未 来 测量 积极 情绪 状态 的 一 个 客观 的 生理 指标 。 

这 一 反馈 加 工 过 程 表 现在 个 体 的 神经 活动 上 
主要 是 , 积极 情绪 会 诱发 更 多 的 中 脑 多 巴 胺 神经 
元 活动 ， 从 而 促使 大 脑 在 随后 的 行为 表现 中 对 与 
奖赏 相关 的 刺激 会 更 加 敏感 ， 导 致 FRN 产生 一 个 
更 加 正 向 的 偏转 波 QMushtaq et al., 2016)。 但 是 该 
模型 由 于 过 分 强调 短 时 情绪 效应 对 于 反馈 加 工 过 
程 的 影响 ,而 忽视 了 长 时 间 的 强化 学 习 过 程 ; 其 
次 该 模型 只 能 解释 反应 -结果 的 联结 不 存在 或 者 
较 弱 的 条 件 ， 而 不 能 解释 反应 -结果 之 间 形 成 稳 
定 的 联结 预测 这 一 学 习 过 程 ; 最 后 , 积极 情绪 启 
动 模型 是 一 个 数据 驱动 模型 ， 研 究 者 仍然 需要 将 
其 与 其 他 心理 学 理论 相 结合 来 解释 复杂 的 反馈 加 
Tit. 

上 述 关于 反馈 负 波 的 5 种 功能 性 意义 的 解释 ， 
分 别 从 不 同 的 方面 、 不 同 的 技术 出 发 解释 了 人 们 
是 如 何 根据 从 环境 中 获得 的 反馈 进行 学 习 ， 调 整 
自身 的 行为 ， 从 而 做 出 最 优化 的 决策 。 其 中 情绪 
动机 假说 与 另外 4 种 理论 的 不 同 主要 体现 在 反馈 
负 波 所 代表 的 是 反馈 刺激 的 认 知 加 工 过 程 还 是 其 
背后 的 情绪 动机 意义 ， 这 个 问题 需要 更 深层 次 的 
研究 。 关 于 另外 的 4 种 理论 的 区 别 主要 体现 在 : 
首先 , 经 典 的 强化 学 习 理 论 和 反应 -结果 的 预期 
模型 是 理论 驱动 下 的 模型 有 自身 的 理论 依据 ， 
而 奖赏 正 波 模型 和 积极 情绪 驱动 模型 是 数据 驱 
动 下 的 模型 (Mushtaq et al., 2016), 理论 和 数据 二 
者 进一步 地 结合 分 析 才 能 够 更 加 完善 地 解释 FRN 
这 一 成 分 。 其次, 前 三 种 理论 对 于 FRN 到 底 是 与 
负 性 RPE, 正 性 RPE 还 是 RPE 的 绝对 值 变化 有 
关 进 行 了 争论 ， 而 第 四 种 理论 与 前 三 种 的 区 别 在 
于 FRN 反 映 的 到 底 是 长 期 学 习 的 影响 还 是 短期 情 
绪 的 影响 。 具 体 来 说 , 经 典 的 强化 学 习 理 论 模 型 
认为 人 们 对 于 -RPE 敏感 ， 反馈 加 工 的 认 知 过 程 
反映 了 错误 的 检测 过 程 和 认 知 评价 过 程 ; 反应 - 
结果 的 预期 模型 认为 人 们 对 于 显著 的 意料 之 外 的 
预测 误差 敏感 (RPE 的 绝对 值 )， 反 馈 加 工 的 认 知 
过 程 反映 了 一 种 冲突 监控 的 认 知 过 程 ; 而 奖赏 正 
波 理 论 的 支持 者 通过 正 负 反 馈 差 异 波 或 PCA 等 数 
据 处 理 方式 对 脑 电 数据 进行 分 析 ， 发 现 反馈 负 波 
对 于 正 性 的 反馈 结果 更 加 敏感 从 而 提出 了 奖赏 正 
波 模型 。 最 后 ， 其 他 研究 者 发 现在 短 时 期 的 学 习 
过 程 中 ， 积 极 的 背景 启动 会 使 反馈 负 波 对 于 正 性 


的 反馈 结果 更 加 敏感 ， 从 而 提出 了 积极 情绪 启动 


目前 关于 FRN 的 理论 解释 还 不 完善 , 但 是 随 
着 未 来 研究 的 深入 ， 有望 形成 一 个 较为 统一 的 
FRN 理论 。 当前 研究 者 采用 不 同 的 实验 任务 ， 以 及 
不 同类 型 的 反馈 刺激 形式 ， 如 积极 反馈 、 消 极 反 
馈 和 模糊 反馈 (Gu et al., 2017; Ernst & Steinhauser, 
2015), 并 基于 这 些 任务 背景 或 者 特定 的 分 析 方 法 得 
出 了 不 同 的 结论 (Zheng et al., 2015, 2017; Umemoto, 
Hajihosseini, Yates, & Holroyd, 2017; Schaefer, 
Buratto, Goto, & Brotherhood, 2016)， 支 持 了 不 同 
的 理论 假设 。 而 由 于 脑 电波 很 容易 受到 其 他 因素 
的 和 干扰， 从 而 导致 研究 者 在 提取 和 分 析 FRN 成 分 
上 存在 问题 ， 这 对 于 FRN 理论 的 整合 也 存在 一 定 
的 影响 。 未 来 关于 FRN 的 理论 探索 可 以 从 以 下 几 
个 方面 进行 深入 : 

第 一 ,进一步 改进 FRN 的 获得 方式 和 分 析 方 
法 。 由 于 决策 后 的 反馈 学 习 过 程 是 一 个 复杂 的 心 
理 过 程 ,不 仅 包含 反馈 加 工 过 程 ， 还 包含 奖赏 预 
期 , 结果 评价 等 过 程 , 现 有 的 人 研究 范式 和 数据 分 
析 方 法 不 能 有 效 地 剔除 和 分 离 其 他 脑 电 成 分 对 于 
FRN 的 影响 。 因 此 , 将 来 的 研究 一 方面 可 以 从 数 
据 处 理 着 手 ， 考虑 采用 主 成 分 分 析 法 (PCA)、 独 立 
成 分 分 析 法 (ICA) 与 时 频 分 析 方 法 相 结 合 的 方法 
(Bernat, Nelson, & Baskin-Sommers, 2015; Cohen, 
Wilmes, & van de Vijver, 2011)， 从 而 较为 有 效 地 分 
离 FRN .P300 以 及 其 他 无 关 的 脑 电 成 分 (Sambrook 
& Goslin, 2015)。 男 外 ,也 可 以 尝试 从 样本 量 入 手 
提高 统计 检验 力 和 实验 效 度 ,， 采用 大 数据 、 大 样 
本 的 思路 ,缩小 实验 误差 .从 而 得 到 可 靠 和 有 效 
的 FRN, 为 相关 的 理论 完善 提供 坚实 的 数据 支持 
(Sambrook & Goslin, 2016)。 除 此 之 外 , 还 应 充分 
发 挥 不 同 技 术 的 优势 ， 取长补短 ,更 加 深入 地 研 
F FRN。 例 如 ， 有 高 空间 分 辩 率 的 fMRI 和 有 高 时 
间 分 辨 率 的 ERP 的 结合 能 够 提供 更 加 精确 的 空间 
定位 和 时 间 进 程 的 变化 ,进一步 加 深 对 强化 学 习 
进程 的 认识 (Becker et al., 2014)。 另 外 ,也 可 以 将 
无 损伤 的 脑 刺激 技术 和 ERP 技术 相 结合 ， 通过 微 
弱电 流 /磁场 来 刺激 反馈 加 工 的 相关 脑 区 ， 从 而 分 
析 FRN 相关 脑 区 的 作用 。 
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源 于 具有 认 知 控制 功能 的 前 扣 带 回 皮层 ,也 可 能 
源 于 负责 奖赏 加 工 的 纹 状 体 区 域 。 未 来 的 研究 可 
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学 习 过 程 和 脑 电 差异 , 来 验证 或 者 探索 FRN 的 发 
生源 。 
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The updated theories of feedback-related negativity in the last decade 


LI Danyang; LI Peng; LI Hong 
(College of psychology and sociology, Shenzhen University, Shenzhen 518060, China) 


Abstract: External feedback plays a vital role in ongoing outcome monitoring and future behavioral 
adjustments. Previous event-related potentials (ERPs) studies have consistently associated the feedback- 
related negativity (FRN) component with feedback processing after decision making. Until now, several 
theoretical interpretations of FRN were proposed and continuously updated in the last decade, including the 
classical reinforcement learning theory, affective-motivational hypothesis, reward positivity (RewP) theory, 
Predicted response-outcome model (PRO model) and Positive affective model. Whereas different models 
emphasized on different aspects, no unified theory has yet been proposed to integrate all of the existing 
experimental evidences. Based on these literature reviews, we argued that big-sample data, multiple and 
complementary technologies are highly necessary in future FRN studies. Moreover, we proposed that FRN 
should be considered as an electrophysiological index of reward system to investigate human behaviors in 
complex social interaction contexts. 

Key words: feedback-related negativity; reinforcement learning; anterior cingulate cortex; reward positivity; 


reward prediction error 


